大環境欠佳,物價飛漲就是薪水不漲(或是漲不如預期)的年代,
很多在外租房子的小資族三餐都快成問題,
不過,山不轉人轉,
存股或低風險投資一下總是不無少補吧!
這些聲音我聽到了,
因此,趕快來給大家惡補一下,
如何利用Python爬蟲以最少的時間與最有效的方法來增加斜槓獲利。
(一) 什麼是網路爬蟲呢?
網路爬蟲又名"網路蜘蛛",是一種程式腳本,電腦將依照腳本的規則瀏覽與收集你想要的資料,通過網頁的鏈結地址來尋找特定的網頁內容,從網站的特定頁開始,讀取網頁的內容,找到其中的鏈接地址,然後通過這些鏈接地址尋找下一個網頁,依照設計的方式循環的抓取網頁的技術。例如:股票資訊收集
如何運用Python的網路爬蟲來達到這個需求呢?
我們先從需求的角度來看:
(二) 設計需求基本流程規劃
我們就拿這個簡單的例子,來演示一下一般需求條列的狀況,以及因未注意到細節可能衍伸的後果,
從上面的流程示意圖來看,一般的基本業務流程如下:
Step1: 由主程式提出爬文需求(即股價資訊)。
Step2: 程式藉由相關的套件或函式經由網路向股市資訊站取得股價資訊,此時系統可能會將此資訊暫存為*.txt檔。
Step3: 原發出需求的系統取得回覆的股價資訊,此時系統會將相關資訊暫存為*.csv檔。
Step4: 系統將呼叫相關套件或函式過濾(或篩選)有效的股價資訊,並做日期格式的轉換或範圍篩選。
Step5: 系統最終將整理好的股價資訊存檔以供檢閱。
先從以上5個步驟來看,從程式的角度是否都可做到?
再看一次,
應該沒什麼問題。
但,說到Step5這個「檢閱」,那學問可大著呢。
由於沒有具體指出檢閱的產出物(或稱標的)(Output),
因此可能會面臨後面需求變更的狀況與增加工時成本的情形。
以上就是很精簡的一個需求擷取條列的過程,
一般業界在此階段都是甲方與乙方雙方議定好施作範圍(Scope),
然後訂定與訂交付的時間(Time),
業務也須於需求評估階段與技術單位計算出較為可靠的成本預估 + 風險成本(Cost),
在此前提下,誤差越小雙方才有可能在愉悅的氣氛下各取所需達成雙贏。
另外,乍看之下可能沒有問題的流程,
將在實作的時候遇到需要微調之處,我們明天再來看下去。